殘酷的現(xiàn)實(shí)是,無(wú)效的監(jiān)控會(huì)招來(lái)麻煩。監(jiān)控是您的基礎(chǔ)設(shè)施的眼睛和耳朵。無(wú)效的監(jiān)控就像開(kāi)車(chē)帶錯(cuò)眼鏡處方:看不清楚,因此很難避免當(dāng)前和未來(lái)的危險(xiǎn)。
數(shù)字化轉(zhuǎn)型加速了 IT 在組織成功中的作用。最終用戶(hù)和客戶(hù)需要不間斷的高性能服務(wù)。停機(jī)、緩慢的應(yīng)用程序性能、未達(dá)到 SLA 要求以及緩慢的部署會(huì)導(dǎo)致對(duì) IT 缺乏信心。此外,問(wèn)題會(huì)在一次又一次的會(huì)議上產(chǎn)生。IT 需要通過(guò)支持文檔提供明確的答案。因此,最佳監(jiān)控策略和平臺(tái)對(duì)于避免服務(wù)中斷和性能問(wèn)題至關(guān)重要。
復(fù)雜的應(yīng)用需要復(fù)雜的監(jiān)控系統(tǒng)
數(shù)字化轉(zhuǎn)型淘金熱使技術(shù)比以前復(fù)雜得多。例如,許多應(yīng)用程序現(xiàn)在是模塊化的。它們可以由具有潛在不同代碼庫(kù)的服務(wù)組成,這些代碼庫(kù)駐留在多個(gè)基礎(chǔ)設(shè)施中。這些服務(wù)可以從一小段容器化代碼到直接在本機(jī)操作系統(tǒng)下運(yùn)行的業(yè)務(wù)邏輯。此外,應(yīng)用程序使用網(wǎng)絡(luò) API 來(lái)集成服務(wù)。
基礎(chǔ)設(shè)施可以存在于本地、云中、跨多個(gè)云,或者云和本地基礎(chǔ)設(shè)施的混合混合。第 2 層和第 3 層網(wǎng)絡(luò)設(shè)施可以是任何東西,從跨開(kāi)放互聯(lián)網(wǎng)的 SD/WAN、傳統(tǒng) MPLS 和專(zhuān)用光纖或虛擬數(shù)據(jù)中心網(wǎng)絡(luò)。基礎(chǔ)設(shè)施選項(xiàng)正在迅速增長(zhǎng)和演變。
遠(yuǎn)程工作趨勢(shì)增加了復(fù)雜性。家庭工作者必須通過(guò)消費(fèi)級(jí)互聯(lián)網(wǎng)連接訪問(wèn)資源。此外,工程師必須使用各種 VPN 技術(shù)和運(yùn)營(yíng)商連接到他們公司的系統(tǒng)。
似乎這還不夠,設(shè)備擴(kuò)散和虛擬化增加了更多的復(fù)雜性。物聯(lián)網(wǎng)的采用是設(shè)備擴(kuò)散的主要驅(qū)動(dòng)力。路由和交換技術(shù)可以是專(zhuān)用硬件、虛擬設(shè)備或云網(wǎng)絡(luò)。這種增加的復(fù)雜性意味著比以往任何時(shí)候都更難跟蹤錯(cuò)誤。
監(jiān)控系統(tǒng)面臨的挑戰(zhàn)
監(jiān)控可幫助您滿足服務(wù)水平協(xié)議 (SLA) 要求和內(nèi)部性能標(biāo)準(zhǔn)。SLA 可以是內(nèi)部的或面向客戶(hù)的。SLA 是對(duì)正常運(yùn)行時(shí)間、故障解決、通信和升級(jí)的一組商定要求,并包含對(duì)不履行的潛在處罰。除了貴公司創(chuàng)建的 SLA 之外,您還將收到來(lái)自供應(yīng)商的 SLA。這些詳細(xì)說(shuō)明了他們對(duì)您的義務(wù)。滿足 SLA 要求并擁有支持文檔至關(guān)重要。需要克服監(jiān)控挑戰(zhàn)以滿足 SLA 要求和標(biāo)準(zhǔn)。
第一個(gè)挑戰(zhàn)是回答這些問(wèn)題:
- 你在監(jiān)控什么?
- 你是怎么監(jiān)控的?
- 有什么重要的事情你目前沒(méi)有監(jiān)控嗎?
未記錄的設(shè)備和配置更改是故障排除的詛咒。在處理未記錄的配置時(shí),讓高層管理人員和客戶(hù)要求答案是很可怕的。解析多個(gè)日志和警報(bào)系統(tǒng)既費(fèi)時(shí)又困難。因此,您的系統(tǒng)需要為配置管理數(shù)據(jù)庫(kù)提供單一數(shù)據(jù)源。團(tuán)隊(duì)不需要浪費(fèi)時(shí)間搜索多個(gè)數(shù)據(jù)庫(kù)。讓我們討論一些其他的監(jiān)控挑戰(zhàn)。
基線行為
了解您正在監(jiān)控的內(nèi)容的一個(gè)重要方面是建立基線基礎(chǔ)設(shè)施行為。您需要知道異常發(fā)生的時(shí)間——但首先,您必須知道什么構(gòu)成異常。事實(shí)上,異常閾值設(shè)置了潛在問(wèn)題的預(yù)警指標(biāo)。但是,需要跨網(wǎng)絡(luò)和平臺(tái)收集和分析信息以獲得最佳結(jié)果。
警報(bào)音量
另一個(gè)挑戰(zhàn)是如何處理大量的警報(bào)和消息。應(yīng)用程序跨平臺(tái)和網(wǎng)絡(luò)運(yùn)行,其中每一個(gè)都是出現(xiàn)錯(cuò)誤的另一個(gè)機(jī)會(huì)。任何平臺(tái)或網(wǎng)絡(luò)中的問(wèn)題都會(huì)影響性能和正常運(yùn)行時(shí)間。此外,您可以擁有多個(gè)警報(bào)源:APM、NPM、服務(wù)器、云提供商和各種其他系統(tǒng)。一個(gè)系統(tǒng)中的一個(gè)問(wèn)題可能會(huì)引發(fā)一連串的錯(cuò)誤。技術(shù)人員越來(lái)越不可能過(guò)濾和關(guān)聯(lián)來(lái)自如此多不同系統(tǒng)的如此人性化的警報(bào)。考慮一下您的監(jiān)控系統(tǒng)將如何處理大量警報(bào)以及如何確定如此多通知的優(yōu)先級(jí)。
勞動(dòng)密集型程序
監(jiān)控系統(tǒng)也可能因分散常規(guī)和程序而陷入困境。您可能有一些標(biāo)準(zhǔn)的一級(jí)故障排除程序,每個(gè)人都知道如何處理。這些標(biāo)準(zhǔn)化流程分散了可用于更高級(jí)別操作的 IT 資源。
服務(wù)水平協(xié)議要求
您滿足 SLA 要求的能力取決于供應(yīng)商的表現(xiàn),必須對(duì)其進(jìn)行監(jiān)控和記錄——尤其是在中斷期間。供應(yīng)商 TAC 中心需要特定信息來(lái)提供幫助。準(zhǔn)確的文檔對(duì)于快速解決事件至關(guān)重要。TAC 中心傾向于指責(zé)并解決沒(méi)有明確定義的問(wèn)題。不幸的是,如果沒(méi)有供應(yīng)商的支持,某些事件將無(wú)法解決。如果您的文檔清晰明了,供應(yīng)商會(huì)更加關(guān)注。
人的因素
問(wèn)題會(huì)產(chǎn)生壓力。因此,問(wèn)題越大,工程師解決問(wèn)題的壓力就越大。此外,解決問(wèn)題所需的時(shí)間越長(zhǎng),它產(chǎn)生的壓力就越大。壓力會(huì)導(dǎo)致壓力,壓力會(huì)影響績(jī)效。不難看出為什么 IT 中斷和性能問(wèn)題會(huì)導(dǎo)致公司倒閉。對(duì)來(lái)自多個(gè)來(lái)源的大量數(shù)據(jù)進(jìn)行分類(lèi),同時(shí)被大量故障單淹沒(méi),即使是最頭腦清醒的軟件開(kāi)發(fā)人員也會(huì)感到壓力。最重要的是,客戶(hù)、最終用戶(hù)和管理層不斷要求更新?tīng)顟B(tài)。如果開(kāi)發(fā)人員給出不明確或不確定的響應(yīng),他們可能會(huì)驚慌利益相關(guān)者,從而產(chǎn)生更多的信息需求。
所有這些壓力造成了這樣一種情況,即 IT 正在查看多個(gè)充滿錯(cuò)誤的亮紅色屏幕,同時(shí)弄清楚所有內(nèi)容在哪里以及如何配置。壓力大的技術(shù)人員爭(zhēng)先恐后地運(yùn)行故障排除程序,向供應(yīng)商開(kāi)票,并確定內(nèi)部資源。如果這些技術(shù)人員碰巧犯了錯(cuò)誤,他們的同事——他們也急于結(jié)束這種情況——可能會(huì)對(duì)他們感到不安。人際關(guān)系緊張會(huì)導(dǎo)致沖突和其他非生產(chǎn)性行為。此外,在工程師解決了最初的問(wèn)題之后,同事之間的不信任可能會(huì)持續(xù)很長(zhǎng)時(shí)間。
壓力、快速變化和日益復(fù)雜的復(fù)雜性會(huì)滋生人為錯(cuò)誤。最近的一項(xiàng)研究表明,超過(guò) 70% 的中斷是由人為錯(cuò)誤造成的。但是一個(gè)強(qiáng)大的監(jiān)控系統(tǒng)可以顯著減少您的組織出現(xiàn)與壓力相關(guān)的錯(cuò)誤的機(jī)會(huì)。